home *** CD-ROM | disk | FTP | other *** search
/ Amiga Format CD 46 / Amiga Format CD46 (1999-10-20)(Future Publishing)(GB)[!][issue 1999-12].iso / -serious- / comms / www / urlx / urlx.readme < prev    next >
Text File  |  1999-09-06  |  2KB  |  66 lines

  1. Short:    V1.0 Extract URL's from any file +sort++
  2. Uploader: frans@xfilesystem.freeserve.co.uk (francis swift)
  3. Author:   frans@xfilesystem.freeserve.co.uk (francis swift)
  4. Type:     comm/www
  5. URL:      www.xfilesystem.freeserve.co.uk
  6.  
  7. Some quick'n'nasty hacks, but I've included the source for you to look
  8. at, especially as urlx uses btree routines and there aren't that many
  9. simple examples of using btrees.
  10.  
  11. urlx
  12. ----
  13. This program searches a file for url's (http:// etc) and prints them
  14. or outputs them to a file. Internally it stores them in a btree to
  15. allow duplicates to be eliminated and optionally to allow the output
  16. to be sorted. There are two sorts available, -s selects a simple
  17. alphabetic sort, and -u to select a special url sort that should provide
  18. better grouping of similar site names (basically it sorts first url
  19. element in groups backwards). The output can be either straight text or
  20. by selecting -h in html format for making quick bookmark files. By default
  21. any parameters after the url are ignored, but they can be kept by the use
  22. of -p. You can also select to output just one type of file by selecting
  23. the extension using -.ext, for example to show only .jpg url's you would
  24. use -.jpg, and for .html you would use -.htm (which matches both .htm
  25. and .html). A better solution for this last case is to use the -i flag
  26. which selects not only .html extensions but also paths where a default
  27. html would be expected.
  28.  
  29. Basically there are lots of options but you'll probably just end up using:
  30.  
  31. urlx -u infile outfile
  32.  
  33. which uses the special url sort, or
  34.  
  35. urlx -u -h infile outfile.html
  36.  
  37. for making a bookmark file.
  38.  
  39. treecat
  40. -------
  41. This is just a quick hack to let shell (sh/pdksh) users grab url's from
  42. a complete directory tree. urlx accepts a single dash as meaning input
  43. is from stdin, so you can use something like
  44.  
  45. treecat dh0:Voyager/cache | urlx -u - outfile
  46.  
  47. to produce a file containing every url in every file in your voyager cache.
  48. You can use this on any browser cache tree.
  49.  
  50. scanv
  51. -----
  52. This is used specifically to pick out the url's from the headers on the files
  53. in a voyager cache. This is the url of the file itself, the program doesn't
  54. look in the file contents for any other url's, use treecat|urlx for that.
  55.  
  56. urlv
  57. ----
  58. This is used specifically to grab url's from a Voyager history file, usually
  59. called URL-History.1.
  60.  
  61. urla
  62. ----
  63. This is used specifically to grab url's from an AWeb cache index file,
  64. usually called AWCR.
  65.  
  66.